從不同韻律格式驗證階層式韻律架構並兼論對語音科技的應用 (One Base Form of Discourse Prosody Goes a Long Way- Evidence of Sytle Dependent Contribution and Possible Applilcation to Technology Development) [In Chinese]
نویسندگان
چکیده
منابع مشابه
以Fujisaki模型驗證連續語流中字調及韻律詞對應於階層性韻律架構HPG的意義 (Mandarin Discourse Prosody Other than Tones and Intonation - Decomposing the F0 Constitution by Prosodic Hierarchy with the Fujisaki Model) [In Chinese]
متن کامل
多語聲學單位分類之最佳化研究 (The Study of Acoustic Model Clustering in Multilingual Speech Recognition) [In Chinese]
由於全球化的形成,人與人之間的溝通不再限於同一種語言,因此多語的語音辨識也變 的格外的重要。如何有效整合多語的聲學模型是一個關鍵議題,因為一組好的多語聲學 單位將影響辨識結果。本論文提出了一套整合專家背景知識與實際語音分析的方法,來 產生一組新的聲學單位,並且對這組聲學單位的數目,使用差分貝式資訊法則來做最佳 的處理。從訓練好的隱藏式馬可夫聲學模型中,計算其單位間的相似度矩陣,之後透過 語音學和音韻學的知識,限定了各個聲學單位能群化的上限,根據不同限定的群化上 限,使用聚合階層式分群法,來建立不同的結構樹。之後,利用差分貝式資訊法則,將 每個結構樹中發音相近的聲學單位做合併,當差分貝式資訊法則的值小於零的時候,就 停止合併,而新合併成一群的聲學單位則為新的聲學單。我們將用 ForSDAT01 華台雙語 語料庫來實驗評量,而實驗結果顯示,本論文所提出的新方法比只用專家知識所定義的 聲學...
متن کامل結合聲學與韻律訊息之強健性語者辨認方法 (Combination of Acoustic and Prosodic Information for Robust Speaker Identification) [In Chinese]
語者辨認系統在公共電話網路中,通常會遇到未知不匹配話筒和辨認語料不足的問題。 為增進語者辨認系統對未知話筒之強健性,與有效利用有限語料,我們提出一融合下層聲學 與上層韻律訊息之架構,首先利用(1)最大相似先驗知識內插法(maximum likelihood-a priori knowledge interpolation,ML-AKI)方法估計與補償話筒聲學特性,並以(2)最小 錯誤鑑別式法則(Minimum Classification Error, MCE)訓練語者模型,以拉大不同語者間 聲學模型的距離,與利用(3)韻律訊息特徵分析(eigen-prosody analysis, EPA)為輔助,量 測不同語者間的韻律模型距離,最後利用(4)線性迴歸的方式融合聲學與韻律模型分數得到 最後的辨識結果。 實驗使用 Handset TIMIT(HTIMIT)語料庫,以 leave-on...
متن کامل使用韻律階層及大量詞彙的中文文轉音系統 (A Mandarin Text-to-Speech System Using Prosodic Hierarchy and a Large Number of Words) [In Chinese]
余明興、張唐瑜、許燦煌、蔡育和 國立中興大學資訊科學所 [email protected], [email protected], [email protected], [email protected] 摘要 本論文實作了一個中文的文轉音系統(Test-to-Speech)系統,它使用大量的詞彙來做為合成單 元(Synthesis units),並且配上適當的韻律階層。韻律階層可以使語意更加清晰,也可以幫助選取 適當的合成單元。因此本篇論文主要包含兩個重點:韻律階層的求取和以大量詞彙作為合成單元 的架構,在韻律階層的求取上,我們實驗了利用剖析器為基礎的方法以及著名的統計式方法 -CART(Classification And Regression Trees)來進行求取。我們使用大量詞彙來當成我們的合成單 元,可以免去許多語音處理不易...
متن کامل基於聽覺感知模型之類神經網路及其在語者識別上之應用 (Two-stage Attentional Auditory Model Inspired Neural Network and Its Application to Speaker Identification) [In Chinese]
根據神經生理學研究,耳朵會針對聲音的各個頻率進行分頻,並產生出聽覺頻譜,研究人 員根據專注聽覺現象和生物聽覺實驗,也發現了大腦聽覺皮質上神經作用的模式。於本論文中, 我們運用類神經網路,建構出一種模擬人類聽覺的類神經網路模型,並在語者識別這個應用上 進行討論,期望能成功連結神經生理學的知識與工程的技術。而我們所設計的模型,是利用兩 層不同維度的卷積神經網路(Convolutional Neural Network),分別模擬初期耳蝸階段及大腦皮質 階段,透過設計卷積核初始值,即耳蝸階段多組一維分頻濾波器和大腦皮質階段同時解析時頻 資訊的二維濾波器,以使模型能夠快速地達到收斂狀態。而透過模型訓練,根據目的與環境變 因的不同,模型會自動調整其中參數,使輸入資料映射至目標的型態。同時我們也針對所提出 的模型架構,進行了多種形態的比較,進而發現在給定初始值的狀況下,即使訓練不夠充分, 也能產...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2007